max rank | avg. rank | sentence |
---|---|---|
103 | 43.6667 | ער האט נישט געהאט קיין קינדער. |
103 | 34.8000 | ער האט נישט קיין קינדער. |
121 | 52.2000 | נישט אריין אין נישט ארויס. |
155 | 57.7143 | דער טאג איז באקאנט אין אסאך לענדער. |
216 | 73.8000 | דאס זעלבע איז אויף צוריק. |
216 | 53.8333 | דאס זעלבע איז מיט א רעגירונג. |
216 | 69.8000 | דאס זעלבע איז מיט געלט. |
216 | 60.8000 | דאס זעלבע איז מיט מענטשן. |
225 | 51.5000 | און א קליינע טייל וועלן האבן א די. |
228 | 75.8750 | וואס דער קערפער דארף באקומען אין איין טאג. |
231 | 76.7273 | ווען מיר זענען געקומען צום ארבעט איז ער שוין דארט געווען. |
236 | 111.0000 | זיינע אלע קינדער חסידים. |
248 | 135.3333 | אבער יעדע זאך גייט ביידע וועגן. |
257 | 69.2857 | זיין פאטער איז געווען זיין הויפט רבי. |
260 | 69.6000 | און אזוי איז טאקע געווען. |
260 | 98.0000 | שפעטער איז טאקע אזוי געווארן. |
266 | 112.7000 | ר' מענדל שטייט דארט אן צו קענען זאגן א ווארט. |
277 | 81.0000 | איר האט נישט קיין אייגענע קינדער? |
278 | 77.5000 | און עס אנגערופן אויף זיין נאמען. |
281 | 126.0000 | אלע זענען געווען אויפ'ן וועג קיין ניו יארק. |
306 | 153.0000 | אפילו דריי זענען גענוג. |
308 | 99.0000 | איז קיינמאל נישט געווען שטארק. |
317 | 166.0000 | ער האט געפירט אלעס אליינס. |
318 | 147.0000 | זייער אייגענע איז דא (2). |
323 | 111.6000 | עס איז באקאנט אז א פליגער האלט זיך אויף לופט. |
331 | 114.2000 | ער איז געבוירן אין ירושלים. |
333 | 89.3333 | אבער דאס איז נאר אין די לעצטע צענדליגער יארן. |
337 | 115.6667 | אויך געפינט מען אסאך מען האט איהם גערופן רב. |
347 | 121.0000 | ער האט חתונה געהאט דריי מאל. |
347 | 129.0000 | ער האט קיינמאל נישט חתונה געהאט. |
The maximum word rank of a sentence is by definition the rank of the rarest word in the sentence. If it is low, all words in the sentence are of high frequency. For this reason the table of the sentences with least maximum word number might be of interest. In the table, we see the corresponding sentences with a minimum length of 40 characters.
The over all distribution of the maximum rank in all sentences of the corpus is shown in a diagram with log-scaled x-axis.
The sentences in the table described above are of interest because they are usually easy to understand. The distribution may give insights into the corpus and may give parameters for language comparison.
While the distribution might be deduced from a small corpus, the sentences in the table are rare and a large corpus will give more impressive results.
Table data:
select max(w_id)-100 as m, avg(w_id)-100 as a, s.sentence from sentences s, inv_w i where s.s_id=i.s_id and length(sentence)>40 and i.w_id>100 group by s.s_id order by m limit 30;
Distribution data;
select m, count(*) from (select 100* round((max(w_id)-100)/100) as m from sentences s, inv_w i where s.s_id=i.s_id and i.w_id>100 group by s.s_id) aa group by m;
Explain the distribution, especially the increase in its right part.
4.5.2.2 Average word rank in sentence
4.5.2.3 Sentences consisting of many low frequency words I
4.5.2.4 Sentences consisting of many low frequency words II
4.5.2.5 Sentences consisting of short words only I
4.5.2.6 Sentences consisting of short words only II
4.5.2.7 Sentences consisting of long words only I
4.5.2.8 Sentences consisting of long words only II